k-median聚类算法【基本概念篇】

写在前面的话

难道最近这种文章看的人比较多,unbelievable!
因为觉得这些都是特别老的算法,应该别人会不怎么看的,但是没想到,我觉得有意思的文章反倒是没有人看,觉得就是很多东西不写,想要回顾的时候自己的记忆又没有自己认为的那么牛逼,有些东西还是全面的理解透彻了,写下来的话更持久一些。当然我的blog 主要是我遗忘时候的宝典,偶尔能帮助很多人,我也是很开心的。

有时候看到有的文章的阅读量有点虚高我自己也会莫名其妙的,但是大家喜欢看什么多写点帮我增加点人气也是好的,哎,人都是这种虚伪的动物,我就这么直白的承认了吧。
啊哈哈哈哈哈

因为觉得网上应该有很多的资料了,但是发现,大家写的就是那样了。这个时候就到了我们女程序员来拯救世界的时候了。

不正经的正文

k-median 算法

k-median 算法是k-means 算法的一种变形。 它的基本原理和我们的k-means 相似。这个就是最重要的一句话。

如果你会了k-means 算法,那么k-median 算法对你来说就是相当简单的啦。因为k-means 定义的时候就是不断的更换我们的中心,中心的选取是根据聚类的平均值也就是我们的means 来定的。那么k-medians 选取的就是我们的中位数。中位数median 和means 到底有什么区别呢,如果你还不知道的可以看我的 这篇文章

  • 17
    点赞
  • 63
    收藏
    觉得还不错? 一键收藏
  • 9
    评论
密度参数选取初始聚类中心的改进k-means算法如下: 1. 从数据集中随机选取一个样本作为第一个簇的中心。 2. 对于剩下的k-1个簇,计算每个样本到最近中心的距离,并选择距离最大的样本作为下一个簇的中心。 3. 根据密度参数rho选择是否更新簇心,直到收敛为止。 具体实现可以参考以下MATLAB代码: ``` function [IDX, C] = kmeans_density_init(X, k, rho) % kmeans_density_init: 密度参数选取初始聚类中心的改进k-means算法 % 输入: % X: n*d的数据矩阵,n为样本数,d为特征维数 % k: 聚类数 % rho: 密度参数 % 输出: % IDX: n*1的向量,表示每个样本所属的簇 % C: k*d的矩阵,表示每个簇的中心 % 使用样例: % [IDX, C] = kmeans_density_init(X, 3, 0.5); [n, d] = size(X); IDX = zeros(n, 1); % 随机选取一个样本作为第一个簇的中心 C = X(randi(n), :); dist = pdist2(X, C); for i = 2:k % 根据密度参数rho选择下一个簇的中心 [~, maxIdx] = max(min(dist, [], 2)); idx = find(dist(:, maxIdx) < rho * median(dist(:, maxIdx))); C(i, :) = mean(X(idx, :)); % 更新距离矩阵 dist(:, i) = pdist2(X, C(i, :)); end while true preIDX = IDX; % 计算每个样本到各个中心的距离 D = pdist2(X, C); % 计算每个样本到最近中心的距离 [minD, minIdx] = min(D, [], 2); % 根据密度参数rho选择簇心 for i = 1:k idx = find(minIdx == i); if numel(idx) > rho * n C(i, :) = mean(X(idx, :)); end end IDX = minIdx; % 判断是否收敛 if isequal(IDX, preIDX) break; end end ``` 其中,密度参数rho表示每个簇中所包含的样本数与总样本数的比例,如果大于rho的簇才会被更新中心点。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值